Modèle probabiliste pour l'extraction de structures dans les documents web
نویسندگان
چکیده
RÉSUMÉ. Le développement des systèmes de gestion de contenu a profondément changé la nature du web : de plus en plus de documents sont créés automatiquement et leur mise en page reflète leur structure logique. Dans ce travail, nous montrons que l’information contenue dans la mise en page est suffisante pour inférer une structure sémantiquement riche, ce qui ouvre la voie à de nombreuses applications. Le passage d’une information de mise en page à une structure sémantique se heurte à deux principaux obstacles : l’hétérogénéité des données et le caractère implicite de de la structure des documents web. Nous décrivons un modèle stochastique capable d’apprendre à transformer des documents semi-structurés vers un schéma défini a priori et présentons une instance particulière de ce modèle adaptée à la transformation de documents hétérogènes HTML en XML.
منابع مشابه
Modèle probabiliste pour l'extraction de structures dans les documents semistructurés - Application aux documents Web
With content management system becoming mainstream the Web has changed dramatically: more and more web pages are now generated from relational databases and their design reflects the logical structure of documents. In this work, we show that there is enough information in the layout of a web document to capture the kind of data people are already producing in a more machine-friendly format. The...
متن کاملIntégration de la structure dans un modèle probabiliste de documents
Résumé. En fouille de textes comme en recherche d’information, différents modèles, de type probabiliste, vectoriel ou booléen, se sont révélés bien adaptés pour représenter des documents textuels mais, ces modèles présentent l’inconvénient de ne pas tenir compte de la structure du document. Or la plupart des informations disponibles aujourd’hui sur Internet ou dans des bases documentaires sont ...
متن کاملUne approche probabiliste pour l'identification de structures de communautés
Résumé. Dans cet article, nous valorisons et défendons l’idée que les modèles génératifs sont une approche prometteuse pour l’identification de structures de communautés (ISC). Nous proposons un nouveau modèle probabiliste pour l’identification de structures de communautés qui utilise le lissage afin de pallier le petit nombre de liens entre les nœuds. Notre modèle étant très sensible aux param...
متن کاملUn modèle neuro markovien profond pour l'extraction de séquences dans des documents manuscrits
RÉSUMÉ. Dans cet article, nous proposons un système d’extraction de mots clés dans des documents manuscrits. Notre approche est basée sur la reconnaissance des lignes de texte à l’aide d’un modèle HMM capable de rejeter les mots n’appartenant pas à un lexique prédéfini. Afin d’être plus discriminant, nous avons remplacé les mélanges de gaussiennes des HMM par un réseau de neurones profond pour ...
متن کاملOptimisation des approximations de probabilité des requêtes en XML probabiliste
XML probabiliste est un modèle probabiliste pour les bases de données incertaines semi-structurées, avec des applications telles que l’intégration incertaine de données, l’extraction d’informations ou le contrôle probabiliste de versions. Nous explorons dans ce travail une solution efficace pour l’évaluation des requêtes tree-pattern avec jointures sur ces documents, ou, plus précisément, pour ...
متن کاملذخیره در منابع من
با ذخیره ی این منبع در منابع من، دسترسی به آن را برای استفاده های بعدی آسان تر کنید
برای دانلود متن کامل این مقاله و بیش از 32 میلیون مقاله دیگر ابتدا ثبت نام کنید
ثبت ناماگر عضو سایت هستید لطفا وارد حساب کاربری خود شوید
ورودعنوان ژورنال:
- Document Numérique
دوره 10 شماره
صفحات -
تاریخ انتشار 2007